GraphRAG

了解 GraghRAG ✅ 2024-09-19
- blog https://www.microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/ ✅ 2024-09-19
- doc https://microsoft.github.io/graphrag/posts/index/0-architecture/ ✅ 2024-09-19
- github https://github.com/microsoft/graphrag ✅ 2024-09-19

GraphRAG（Graph-based Retrieval-Augmented Generation）是由微软研究院提出的一种新型的基于图的检索增强生成方法。这种方法结合了大语言模型（LLM）和图机器学习技术，旨在显著提升模型在处理私有数据时的理解和推理能力。GraphRAG 通过构建知识图谱，将非结构化的文本数据转换为结构化的图谱形式，其中文本中的实体和概念被视为图中的节点，它们之间的关系构成节点之间的边。这种方法不仅增强了模型对数据的理解能力，也为模型提供了更丰富的信息检索和推理路径。

GraphRAG 的核心优势在于其能够处理涉及复杂关系和多步骤推理的问题，提供全面且准确的答案。它能够自动更新知识图谱，保持信息的时效性和准确性，并能跨领域整合不同来源和类型的信息。GraphRAG 还能够根据不同的查询需求，生成定制化的信息摘要，提供个性化的信息服务。

在技术实现上，GraphRAG 通过以下几个步骤来增强 LLM 的能力：

索引（Indexing）：将输入的文本分割成一系列文本单元，使用 LLM 提取实体、关系和关键主张，然后使用社区检测算法对实体进行分层聚类。
查询（Query）：在查询时，利用构建的结构来填充 LLM 的上下文窗口，以回答特定问题。GraphRAG 支持全局搜索和本地搜索两种模式。
提示调整（Prompt Tuning）：GraphRAG 会对提示进行调整，以更好地利用知识图谱和社区摘要。

GraphRAG 的应用场景非常广泛，包括私有数据分析、新闻媒体与内容创作、学术研究与知识发现、医疗健康信息管理等。它的开源也引起了社区的广泛关注，GitHub 上的项目迅速获得了众多的 star，显示了其在开发者社区中的受欢迎程度。

微软在其官方博客中提到，GraphRAG 在全面性、多样性、赋权性方面的表现优于传统的 RAG 方法，并且在多项测试中展现出了显著的性能提升。